
刚刚,英伟达新模型上线!4B推理狂飙53倍,全新注意力架构超越Mamba 2
刚刚,英伟达新模型上线!4B推理狂飙53倍,全新注意力架构超越Mamba 2Jet-Nemotron是英伟达最新推出的小模型系列(2B/4B),由全华人团队打造。其核心创新在于提出后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,实现了从预训练Transformer出发的高效架构优化。
来自主题: AI技术研报
6622 点击 2025-08-26 19:34
Jet-Nemotron是英伟达最新推出的小模型系列(2B/4B),由全华人团队打造。其核心创新在于提出后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,实现了从预训练Transformer出发的高效架构优化。
自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。